English version

Чтение с экрана PDA

Вы наверняка встречали в интернет множество статей на эту тему, но у меня тоже есть чем поделиться :)

Сейчас появились специальные устройства для чтения, такие, как Sony Read, которые могут быть удобнее, но у PDA (наладонников и смартфонов) есть свои преимущества, например, невысокая цена и небольшие размеры, большой выбор программ для чтения и конвертеров различных форматов файлов. Многие покупают наладонники специально для чтения. Есть две основные линии PDA: устройства, использующие Palm OS и устройства на базе Windows CE/Pocket PC/Windows Mobile.

Я, например, использую старый наладонник Sony Clie SJ20 с операционной системой Palm OS 4, который прекрасно подходит для чтения. У него отличный черно-белый экран с высоким разрешением, не требующий подсветки, а кроме того, заряда аккумулятора хватает очень надолго (до 2 недель при ежедневном использовании).

Если вы являетесь владельцем наладонника или современного смартфона, то вы наверняка знаете как читать с вашего устройства. Тем не менее, я начну с элементарных вещей, а потом перейду к более продвинутым советам.

Простое чтение

Если документ, который вы хотите прочитать, есть у вас на компьютере в каком-нибудь текстовом формате (простой текст, html, MS-Word), то вы можете просто скопировать его на ваш PDA и читать с помощью соответствующих программ, например Documents To Go на Palm или Pocket Word/Pocket IE на Pocket PC.

Однако есть более удобный способ - книгу можно конвертировать в формат, предназначенный для чтения с PDA, и читать при помощи специальных программ. Я использую iSilo, так как этот формат поддерживает сложное форматирование и картинки, и для него есть удобный графический конвертер iSiloX, который работает под Windows и Linux под wine, а также конвертер под Mac и Linux с интерфейсом командной строки.

Многие пользователи Pocket PC предпочитают HaaliReader. Кроме того, есть множество других подобных программ.

Теперь рассмотрим чтение более сложных документов.

Чтение книг в формате Chm

Это достаточно распространённый формат для компьютерной литературы. У владельцев Pocket PC не должно быть с ним никаких проблем.

Chm представляет собой скомпилированный html, поэтому его нужно распаковать для конвертации в iSilo. В Windows это можно сделать используя команду

hh.exe -decompile Destination_Directory filename.chm

Я привык использовать набор небольших утилит KeyTools, для работы с chm. Он работает в Linux под wine Полученный html можно затем конвертировать в iSilo.

Чтение PDF

С форматом PDF все несколько сложнее.

Существуют разные виды PDF-документов. С PDF документами, содержащими только текст, все просто - можно выделить весь текст и вставить его в текстовый редактор, а потом конвертировать в iSilo или ваш любимый формат для чтения. Кроме того, некоторые читалки для Palm и Pocket PC поддерживают такие PDF-документы прямо на наладоннике, или в конвертере. Кроме того, такие PDF документы можно сначала превратить в html используя Adobe Acrobat или pdftohtml, чтобы сохранить форматирование.

Правда даже для текстовых PDF документов это работает далеко не всегда, так как PDF-документы могут использовать нестандартные шрифты, которых нет на PDA. Обычно это становится проблемой для научных текстов, так как формулы безвозвратно портятся при конвертировании.

Другой вид PDF-документов - это документы, состоящие из картинок, например, отсканированные книги. Такие документы не удаётся сконвертировать в PDA при помощи уже описанных методов, так как картинки не помещаются на экран наладонника или смартфона.

Но у меня есть несколько идей на этот счет.

Чтение сканированных книг

Сканированные книги обычно удаётся распознать, используя программы для автоматического распознавания текста, такие как FineReader, а затем сконвертировать текст в подходящий формат для чтения (iSilo, FictionBook и т.д.). К сожалению, FineReader и подобные программы совершенно беспомощны при работе с книгами, содержащими формулы

Поэтому обсудим чтение научных документов отдельно.

Чтение научных документов

В интернет можно найти огромное количество научных книг и статей

Например большинство новых статей по физике и математике выкладываются в свободный доступ в arxiv. Кроме того, у вас может быть доступ к электронным версиям научных журналов через системы вроде Metapress, ScienceDirect или Scopus.

Статьи обычно выкладываются в формате PDF или PostScript, но в arxiv-е можно также скачать исходный код статей, обычно в формате LaTeX. Это очень удобно, так как LaTeX легко конвертировать в html с помощью TeX4ht.

Конвертация LaTeX в html с TeX4ht

Чтобы воспользоваться TeX4ht, вам придётся установить:

  • LaTeX, вы можете использовать дистрибутив miktex для Windows, или установить LaTeX из пакета в вашем дистрибутиве Linux
  • сам TeX4ht, он входит в состав новых версий miktex, а также в дистрибутивы и репозитории Linux
  • ImageMagick для конвертации формул в картинки, эта библиотека также входит в большинство дистрибутивов Linux

Если вы работаете под Windows, у вас могут быть некоторые проблемы с TeX4ht, тогда вам поможет этот документ.

После того, как вы установили все необходимое, вы можете сконвертировать документ LaTeX (например, статью из arxiv-а) с помощью команды:

  htlatex your_tex_file_name "html,pic-m"

Ключ “html,pic-m” указывает TeX4ht, что нужно конвертировать файл в html, а формулы представить в виде картинок. Дополнительную информацию о использовании TeX4ht можно почерпнуть из руководства.

Полученные html-файлы можно конвертировать в iSilo или читать в Pocket IE.

К сожалению исходный код статей и книг в формате LaTeX доступен не часто. Но есть и другие методы.

Распознавание научных текстов с помощью InftyReader

Если ваш документ имеет хорошее качество, то его можно попробовать распознать программой InftyReader. Эта программа распознает формулы и английский текст. Вы можете скачать пробную версию, и использовать её для перевода документов в TeX. Затем их можно конвертировать с помощью TeX4ht.

Проблема состоит в том, что документ должен быть действительно хорошего качества. Кроме того, не поддерживаются другие языки, кроме английского.

Чтение сканированных научных книг

Многие научные книги и старые статьи доступны только в сканированном виде, в виде картинок, обычно упакованных в PDF или DJVU. Например, большое количество русских и англоязычных книг доступно в библиотеке Колхоза или в библиотеке мехмата МГУ (правда доступ к этим библиотекам ограничен). Отсканированные старые статьи есть на сайтах издательств, таких как Springer. Обычно качество этих книг и статей не слишком хорошее в целях уменьшения объёма, поэтому их не удаётся распознать InftyReader-ом.

Читаем DJVU

Есть несколько читалок DJVU для PocketPC/Windows Mobile, например ExpressView от Lizardtech - создателей формата DJVU. Я могу порекомендовать две программы:

  • PocketDJVU - эта свободная программа достаточно стабильная и быстрая, но если у вас смартфон или наладонник с экраном qVGA (240х320), то читать будет не слишком удобно, так как будет слишком мелко или придётся скролить страницу из стороны в сторону.
  • SmartDJVU - коммерческая программа, созданная фирмой Inscenic. У этой программы есть отличная возможность - она может переносить строки текста, используя информацию из текстового слоя документа DJVU. Текстовый слой достаточно просто создать в DocumentExpress от Lizardtech. Однако SmartDJVU достаточно нестабильна (судя по отзывам в форумах), а кроме того, разработчики заявляют, что новых версий не будет, так как программа не приносит им дохода. Тем не менее, эта идея очень удачная.

Итак, для Pocket PC есть неплохие просмотрщики DJVU, поэтому чтение книг в формате djvu не должно вызывать проблем, если у вас есть Pocket PC с VGA (640×480) экраном.

Но если у вас Palm или смартфон с другой OS, или вам не удаётся добавить текстовый слой в djvu документ, то вам нужен другой способ. Кроме того, не существует способа распознать рукописный текст, а значит и добавить текстовый слой в djvu документы с рукописным текстом, например в конспекты.

Преобразование сканированных документов с Fit2PDA

Вы можете воспользоваться моей программой Fit2PDA для преобразования книг или других сканированных документов. Принцип её работы очень прост: Fit2PDA разделяет страницы сканированной книги на строчки и делит строки на части, помещающиеся на экран PDA. Пример работы можно посмотреть здесь. Fit2PDA сгенерирует html с картинками с шириной равной ширине экрана вашего наладонника или смартфона.

Скачайте Fit2PDA со страницы проекта, запустите fit2pda.exe или fit2pda. Затем добавьте книги в программу и выберите параметры конвертации: ширину экрана вашего устройства, желаемое разрешение (dpi - точек на дюйм, 170-190 dpi для новых Palm-ов или Pocket-ов, 70-90 dpi для старых Palm-ов и Pocket-ов, 96 или 130 dpi для смартфонов). Кроме того, вам может понадобиться разбиение получающегося html-документа с картинками на части, так как некоторые программы на некоторых устройствах не могут отображать документы с большим числом больших картинок. После этого нажмите на кнопку convert и выпейте чашечку кофе, так как конвертация займёт довольно много времени. Полученный html документ можно конвертировать в iSilo (не забудьте снять галочку с пункта “Resize large images”) или читать в Pocket IE.

Fit2PDA может использоваться для преобразования рукописных конспектов, как можно видеть здесь на нижней картинке, но для этого нужно предварительно улучшить качество изображения, в особенности контраст, и избавиться от клеточек.

Вы можете написать мне письмо, а также почитать мой блог для получения дополнительной информации о Fit2PDA.

Заключение

Я использовал все описанные методы конвертирования докумнтов и прочел много научных статей и книг на моем наладоннике. PDA могут быть не самыми лучшими устройствами для чтения, но они очень удобны.

 
projects/reading/russian.txt · Последние изменения: 2007/06/27 08:10 anton
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki